基于硬件的加速度是促进许多计算密集型数学操作的广泛尝试。本文提出了一个基于FPGA的体系结构来加速卷积操作 - 在许多卷积神经网络模型中出现的复杂且昂贵的计算步骤。我们将设计定为标准卷积操作,打算以边缘-AI解决方案启动产品。该项目的目的是产生一个可以一次处理卷积层的FPGA IP核心。系统开发人员可以使用Verilog HDL作为体系结构的主要设计语言来部署IP核心。实验结果表明,我们在简单的边缘计算FPGA板上合成的单个计算核心可以提供0.224 GOPS。当董事会充分利用时,可以实现4.48 GOP。
translated by 谷歌翻译
Despite their popularity in deep learning and machine learning in general, the theoretical properties of adaptive optimizers such as Adagrad, RMSProp, Adam or AdamW are not yet fully understood. In this paper, we develop a novel framework to study the stability and generalization of these optimization methods. Based on this framework, we show provable guarantees about such properties that depend heavily on a single parameter $\beta_2$. Our empirical experiments support our claims and provide practical insights into the stability and generalization properties of adaptive optimization methods.
translated by 谷歌翻译
语义分割是开发医学图像诊断系统的重要任务。但是,构建注释的医疗数据集很昂贵。因此,在这种情况下,半监督方法很重要。在半监督学习中,标签的质量在模型性能中起着至关重要的作用。在这项工作中,我们提出了一种新的伪标签策略,可提高用于培训学生网络的伪标签的质量。我们遵循多阶段的半监督训练方法,该方法在标记的数据集上训练教师模型,然后使用训练有素的老师将伪标签渲染用于学生培训。通过这样做,伪标签将被更新,并且随着培训的进度更加精确。上一个和我们的方法之间的关键区别在于,我们在学生培训过程中更新教师模型。因此,在学生培训过程中,提高了伪标签的质量。我们还提出了一种简单但有效的策略,以使用动量模型来提高伪标签的质量 - 训练过程中原始模型的慢复制版本。通过应用动量模型与学生培训期间的重新渲染伪标签相结合,我们在五个数据集中平均达到了84.1%的骰子分数(即Kvarsir,CVC-ClinicdB,Etis-laribpolypdb,cvc-colondb,cvc-colondb,cvc-colondb和cvc-300)和CVC-300)只有20%的数据集用作标记数据。我们的结果超过了3%的共同实践,甚至在某些数据集中取得了完全监督的结果。我们的源代码和预培训模型可在https://github.com/sun-asterisk-research/online学习SSL上找到
translated by 谷歌翻译
这项研究介绍了我们对越南语言和语音处理任务(VLSP)挑战2021的文本处理任务的医疗保健领域的自动越南图像字幕的方法作为编码器的体系结构和长期的短期内存(LSTM)作为解码器生成句子。这些模型在不同的数据集中表现出色。我们提出的模型还具有编码器和一个解码器,但是我们在编码器中使用了SWIN变压器,LSTM与解码器中的注意模块结合在一起。该研究介绍了我们在比赛期间使用的培训实验和技术。我们的模型在vietcap4h数据集上达到了0.293的BLEU4分数,并且该分数在私人排行榜上排名3 $^{rd} $。我们的代码可以在\ url {https://git.io/jddjm}上找到。
translated by 谷歌翻译
尽管在文档理解方面取得了成功,但由于计算中的几个挑战以及如何有效吸收长期多模式输入,因此长期文档理解的实际任务在很大程度上尚未探索。大多数基于变压器的方法仅处理简短的文档,并且由于其过度的计算和内存限制,因此仅使用文本信息来引起注意。为了解决长期文档理解中的这些问题,我们探索了处理1D和新的2D位置引人入胜的不同方法,并以本质上的背景缩短了。实验结果表明,我们提出的模型基于各种评估指标具有此任务的优势。此外,我们的模型仅对注意力进行更改,因此很容易适应任何基于变压器的体系结构。
translated by 谷歌翻译
跨不同边缘设备(客户)局部数据的分布不均匀,导致模型训练缓慢,并降低了联合学习的准确性。幼稚的联合学习(FL)策略和大多数替代解决方案试图通过加权跨客户的深度学习模型来实现更多公平。这项工作介绍了在现实世界数据集中遇到的一种新颖的非IID类型,即集群键,其中客户组具有具有相似分布的本地数据,从而导致全局模型收敛到过度拟合的解决方案。为了处理非IID数据,尤其是群集串数据的数据,我们提出了FedDrl,这是一种新型的FL模型,它采用了深厚的强化学习来适应每个客户的影响因素(将用作聚合过程中的权重)。在一组联合数据集上进行了广泛的实验证实,拟议的FEDDR可以根据CIFAR-100数据集的平均平均为FedAvg和FedProx方法提高了有利的改进,例如,高达4.05%和2.17%。
translated by 谷歌翻译
本文介绍了一位深钢筋学习代理(AI),它使用声音作为IEEE COG 2022的DareFightingings竞赛中Darefightingings平台上的输入。尽管最新的AI主要依赖于其环境提供的视觉或结构化观察结果,但学会从Sound玩游戏仍然是新的,因此具有挑战性。我们建议使用不同的方法来处理音频数据,并为盲人AI使用近端策略优化算法。我们还建议利用盲人AI评估提交竞争的声音设计,并为此任务定义两个指标。实验结果不仅显示了我们的盲人AI,而且还提出了两个指标的有效性。
translated by 谷歌翻译
来自3D点云的对象重建在计算机视觉和计算机图形研究字段中取得了令人印象深刻的进展。但是,通常会忽略时间变化点云(又称4D点云)的重建。在本文中,我们提出了一种新的网络体系结构,即RFNET-4D,它共同重建对象及其运动从4D点云中流动。关键见解是,通过一系列点云的学习空间和时间特征同时执行这两个任务可以利用单个任务,从而改善了整体性能。为了证明这种能力,我们使用无监督的学习方法来设计一个时间矢量场学习模块,以进行流程估计,并通过监督对物体重建的空间结构的监督学习来利用。基准数据集的广泛实验和分析验证了我们方法的有效性和效率。如实验结果所示,我们的方法在流动估计和对象重建方面都达到了最先进的性能,同时执行训练和推理中的现有方法要快得多。我们的代码和数据可从https://github.com/hkust-vgd/rfnet-4d获得
translated by 谷歌翻译
建筑聊天禁令的最大挑战是培训数据。所需的数据必须逼真,足以训练聊天禁止。我们创建一个工具,用于从Facebook页面的Facebook Messenger获取实际培训数据。在文本预处理步骤之后,新获得的数据集生成FVNC和示例数据集。我们使用返回越南(Phobert)的伯特来提取文本数据的功能。 K-means和DBSCAN聚类算法用于基于Phobert $ _ {Base} $的输出嵌入式群集任务。我们应用V测量分数和轮廓分数来评估聚类算法的性能。我们还展示了Phobert的效率与样本数据集和Wiki DataSet上的特征提取中的其他模型相比。还提出了一种结合聚类评估的GridSearch算法来找到最佳参数。由于群集如此多的对话,我们节省了大量的时间和精力来构建培训Chatbot的数据和故事情节。
translated by 谷歌翻译
深度学习已成功地用于解决从大数据分析到计算机视觉和人级控制的各种复杂问题。但是,还采用了深度学习进步来创建可能构成隐私,民主和国家安全威胁的软件。最近出现的那些深度学习驱动的应用程序之一是Deepfake。 DeepFake算法可以创建人类无法将它们与真实图像区分开的假图像和视频。因此,可以自动检测和评估数字视觉媒体完整性的技术的建议是必不可少的。本文介绍了一项用于创造深击的算法的调查,更重要的是,提出的方法旨在检测迄今为止文献中的深击。我们对与Deepfake技术有关的挑战,研究趋势和方向进行了广泛的讨论。通过回顾深层味和最先进的深层检测方法的背景,本研究提供了深入的深层技术的概述,并促进了新的,更强大的方法的发展,以应对日益挑战性的深击。
translated by 谷歌翻译